Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Extraction de texte et de figures dans les livres anciens à l'aide de la morphologie mathématique

Identifieur interne : 001E11 ( Main/Exploration ); précédent : 001E10; suivant : 001E12

Extraction de texte et de figures dans les livres anciens à l'aide de la morphologie mathématique

Auteurs : Lsabel Granado [Portugal] ; Michele Mengucci [Portugal] ; Fernando Muge [Portugal]

Source :

RBID : Pascal:01-0234894

Descripteurs français

English descriptors

Abstract

Cet article a pour objet la segmentation et l'extraction de texte et de figures dans des images de livres anciens ; il rapporte une contribution effectuée dans le cadre du projet européen DEBORA -Digital accEss to the Books of the RenaissAnce - qui traitait des livres du 16ème siècle, dans différents pays d'Europe. Les méthodes définies et illustrées par des exemples sont toutes basées sur la morphologie mathématique. Les cas d'étude présentés ci-après sont extraits de deux livres du 16ème siècle, un livre portugais "Lusíadas" de Luis de Camóes et un livre français "Plusieurs Singula" de Pierre B. du Mans. Pour des raisons de disponibilité des images liées au processus de numérisation, l'étude complète a tout d'abord été menée sur des images en niveaux de gris issues de "Lusíadas". Les images de l'ouvrage français nous ont ensuite été fournies directement en format binaire, et seule la méthode de séparation a été appliquée. Les algorithmes ont été développés en C, en utilisant un logiciel d'analyse d'images. En raison de l'état de conservation et des caractéristiques de son contenu, l'analyse d'une image obtenue à partir d'un livre ancien exige la prise en compte et l'étude de nombreux paramètres (le type ou la conception particulière des caractères et des figures par exemple). Nous pouvons rappeler aussi que les techniques actuelles de reconnaissance optique de caractères (OCR) ne sont pratiquement pas utilisables pour les livres anciens, imprimés ou, a fortiori, manuscrits. Il nous faut également considérer que les images numérisées proviennent de documents qui ont été fortement dégradés (pages tordues, tâches et dégradations diverses, parmi d'autres éléments). Il était donc nécessaire de développer une application spécifique telle que celle que nous proposons dans cet article.


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="a">Extraction de texte et de figures dans les livres anciens à l'aide de la morphologie mathématique</title>
<author>
<name sortKey="Granado, Lsabel" sort="Granado, Lsabel" uniqKey="Granado L" first="Lsabel" last="Granado">Lsabel Granado</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>CVRM/Centro de Geo-Sistemas, Instituto Superior Tecnico, Av. Rovisco Pais</s1>
<s2>1096, Lisboa</s2>
<s3>PRT</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>Portugal</country>
<wicri:noRegion>1096, Lisboa</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Mengucci, Michele" sort="Mengucci, Michele" uniqKey="Mengucci M" first="Michele" last="Mengucci">Michele Mengucci</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>CVRM/Centro de Geo-Sistemas, Instituto Superior Tecnico, Av. Rovisco Pais</s1>
<s2>1096, Lisboa</s2>
<s3>PRT</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>Portugal</country>
<wicri:noRegion>1096, Lisboa</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Muge, Fernando" sort="Muge, Fernando" uniqKey="Muge F" first="Fernando" last="Muge">Fernando Muge</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>CVRM/Centro de Geo-Sistemas, Instituto Superior Tecnico, Av. Rovisco Pais</s1>
<s2>1096, Lisboa</s2>
<s3>PRT</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>Portugal</country>
<wicri:noRegion>1096, Lisboa</wicri:noRegion>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">01-0234894</idno>
<date when="2000">2000</date>
<idno type="stanalyst">PASCAL 01-0234894 INIST</idno>
<idno type="RBID">Pascal:01-0234894</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000721</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000072</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000699</idno>
<idno type="wicri:Area/Main/Merge">001F11</idno>
<idno type="wicri:Area/Main/Curation">001E11</idno>
<idno type="wicri:Area/Main/Exploration">001E11</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr" level="a">Extraction de texte et de figures dans les livres anciens à l'aide de la morphologie mathématique</title>
<author>
<name sortKey="Granado, Lsabel" sort="Granado, Lsabel" uniqKey="Granado L" first="Lsabel" last="Granado">Lsabel Granado</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>CVRM/Centro de Geo-Sistemas, Instituto Superior Tecnico, Av. Rovisco Pais</s1>
<s2>1096, Lisboa</s2>
<s3>PRT</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>Portugal</country>
<wicri:noRegion>1096, Lisboa</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Mengucci, Michele" sort="Mengucci, Michele" uniqKey="Mengucci M" first="Michele" last="Mengucci">Michele Mengucci</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>CVRM/Centro de Geo-Sistemas, Instituto Superior Tecnico, Av. Rovisco Pais</s1>
<s2>1096, Lisboa</s2>
<s3>PRT</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>Portugal</country>
<wicri:noRegion>1096, Lisboa</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Muge, Fernando" sort="Muge, Fernando" uniqKey="Muge F" first="Fernando" last="Muge">Fernando Muge</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>CVRM/Centro de Geo-Sistemas, Instituto Superior Tecnico, Av. Rovisco Pais</s1>
<s2>1096, Lisboa</s2>
<s3>PRT</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>Portugal</country>
<wicri:noRegion>1096, Lisboa</wicri:noRegion>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Algorithm</term>
<term>Classification</term>
<term>Digitizing</term>
<term>European</term>
<term>Grey level image</term>
<term>Image analysis</term>
<term>Information extraction</term>
<term>Mathematical morphology</term>
<term>Method</term>
<term>Old document</term>
<term>Project</term>
<term>Segmentation</term>
<term>Text</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Document ancien</term>
<term>Extraction information</term>
<term>Texte</term>
<term>Analyse image</term>
<term>Image niveau gris</term>
<term>Méthode</term>
<term>Morphologie mathématique</term>
<term>Segmentation</term>
<term>Classification</term>
<term>Algorithme</term>
<term>Numérisation</term>
<term>Projet</term>
<term>Européen</term>
<term>DEBORA (Digital accEss to BOoks of RenAissance)</term>
</keywords>
<keywords scheme="Wicri" type="topic" xml:lang="fr">
<term>Classification</term>
<term>Numérisation</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Cet article a pour objet la segmentation et l'extraction de texte et de figures dans des images de livres anciens ; il rapporte une contribution effectuée dans le cadre du projet européen DEBORA -Digital accEss to the Books of the RenaissAnce - qui traitait des livres du 16
<sup>ème</sup>
siècle, dans différents pays d'Europe. Les méthodes définies et illustrées par des exemples sont toutes basées sur la morphologie mathématique. Les cas d'étude présentés ci-après sont extraits de deux livres du 16
<sup>ème</sup>
siècle, un livre portugais "Lusíadas" de Luis de Camóes et un livre français "Plusieurs Singula" de Pierre B. du Mans. Pour des raisons de disponibilité des images liées au processus de numérisation, l'étude complète a tout d'abord été menée sur des images en niveaux de gris issues de "Lusíadas". Les images de l'ouvrage français nous ont ensuite été fournies directement en format binaire, et seule la méthode de séparation a été appliquée. Les algorithmes ont été développés en C, en utilisant un logiciel d'analyse d'images. En raison de l'état de conservation et des caractéristiques de son contenu, l'analyse d'une image obtenue à partir d'un livre ancien exige la prise en compte et l'étude de nombreux paramètres (le type ou la conception particulière des caractères et des figures par exemple). Nous pouvons rappeler aussi que les techniques actuelles de reconnaissance optique de caractères (OCR) ne sont pratiquement pas utilisables pour les livres anciens, imprimés ou, a fortiori, manuscrits. Il nous faut également considérer que les images numérisées proviennent de documents qui ont été fortement dégradés (pages tordues, tâches et dégradations diverses, parmi d'autres éléments). Il était donc nécessaire de développer une application spécifique telle que celle que nous proposons dans cet article.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>Portugal</li>
</country>
</list>
<tree>
<country name="Portugal">
<noRegion>
<name sortKey="Granado, Lsabel" sort="Granado, Lsabel" uniqKey="Granado L" first="Lsabel" last="Granado">Lsabel Granado</name>
</noRegion>
<name sortKey="Mengucci, Michele" sort="Mengucci, Michele" uniqKey="Mengucci M" first="Michele" last="Mengucci">Michele Mengucci</name>
<name sortKey="Muge, Fernando" sort="Muge, Fernando" uniqKey="Muge F" first="Fernando" last="Muge">Fernando Muge</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 001E11 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 001E11 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     Pascal:01-0234894
   |texte=   Extraction de texte et de figures dans les livres anciens à l'aide de la morphologie mathématique
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024